logoLapage.PNG

ANALYSE DES VENTES

Importation et inspection des data

Importation des fichiers de données

Fichier CLIENTS

Ce fichier comprend 3 variables :

Fichier PRODUITS

Ce fichier comprend 3 variables :

Fichier VENTES

Ce fichier comprend 4 variables :

L'id de la session ne nous sera d'aucune utilité ici, nous ne le gardons pas

SI ON LE GARDE

Inspection et contrôle des données

Inspection des données : info, describe

Nous constatons d'ores et déjà un problème au niveau des données :
En effet, la ligne MIN indique un prix négatif.

Ici aussi, nous constatons un problème, cette fois-ci avec le champs DATE.
La ligne TOP indique une date commençant par "test_"

Contrôle des données

Recherche des valeurs nulles
Recherche des doublons
Vérification des formats

La variable "client_id" est de type objet car le code se compose ainsi : c_xxxx

la variable "product_id" est de type object car le code se compose ainsi : x_xxx

la variable "date" est de type objet et non date

Nettoyage des données

Suppression des doublons

Suppression des valeurs test

Nous avons donc 74 lignes de test.
NB : les identifiants produits de type T_0 sont des tests, de même que les identifiants client de type CT_0 ou CT_1

Je n'ai qu'une seule ligne contenant un identifiant produit de test.
Je dois ensuite vérifier qu'il n'y a pas d'autre prix négatif.

il s'agit de la même ligne.
Je n'ai donc qu'une seule ligne à supprimer dans ce fichier

Correction des formats incohérents

ce format est de type objet.
de plus, il est trop détaillé : nous n'avons besoin que d'un format de type '%Y-%m-%d %H:%M:%S'

Recherche de valeurs atypiques

Pas de recherche pour les ventes et les clients, car une simple description du fichier nous permet de voir que toutes les dates sont bien entre le 01/03/21 et le 28/02/23 pour ce qui est des ventes, et toutes les dates de naissance sont comprises entre 1929 et 2004.

Nous constatons que la grande majorité des prix se situe entre 0 et 46.99€.
Au-delà, 97 outliers dont les tarifs vont de 111.72 à 300€.
Ces références sont-elles des valeurs atypiques ?
Cela semble peu probable : il est normal d'avoir des références à un prix standard et une gamme plus onéreuse.
A valider avec le service commercial.

Merge des data

Analyse du CA

Indicateurs

Dans un premier temps, nous allons définir nos KPI :

Puis nous allons calculer le CA total :

Evolution temporelle

Calcul du CA mois par mois :

Nous constatons d'ores et déjà une chute brutale du CA au mois d'octobre.
Il conviendra d'analyser plus précisément ce point afin :

Nous constatons qu'il y a un écart important de chiffre d'affaires entre le mois d'oct 2021 et les autres
(environ 40%)
L'écart concerne les produits de la catégorie 1.
en effet, seulement 1666 produits de cette catégorie ont été vendus en oct 2021 contre une moyenne de 10436 les autres mois.

Il peut donc s'agir d'un problème de disponibilité de ces articles
(problème fournisseur ou autre)
Deux questions se posent alors :

Nous constatons sur le graph un pic au premier trimestre 2022.
Nous allons donc ajouter ces données au comparateur.

On constate que les mois suivants (novembre, décembre et janvier) montrent une augmentation du nb d'articles de catégorie 1 vendus.
Ce nombre revient à la normale dès le mois de mars 2022.
De plus, si on fait la moyenne des mois d'oct, nov, decembre et janvier, on trouve 9700, ce qui correspond aux données
des mois de septembre 2021 et octobre 2022.
Nous partons donc de l'hypothèse que les données sont lissées sur les autres mois.
Nous décidons donc de ne pas intervenir sur les données d'octobre 2021.

Ces hypothèses devront être vérifiées auprès des services achat et commercial.

décomposition en moyenne mobile - lissage sur 3 mois

moy_mob = ca_mois.rolling(3).mean() moy_mob

on constate une relative stabilité du CA autour de 500k
avec deux pics :

Nous avons vu précédemment une explication possible à ces pics.

Zoom sur les produits

Description : CA, prix, nb-ventes

Les prix s'étendent entre 0.62 et 300€ pour un prix moyen de 17.45€.

Le CA moyen par article est de 17.45€
Le CA moyen par mois est de 474 149€

Le nb de ventes moyen par article est de 208.
Le nb de ventes moyen par mois est de 27 173.

Catégorie 0 :

Catégorie 1 :

Catégorie 2 :

les tops

Les articles les plus vendus appartiennent à la catégorie 1.
Leur prix se situe entre 15.99€ et 24.81€.

Les articles les plus chers appartiennent à la catégorie 2.
Le CA ainsi que le nb de ventes est disparate.

Les articles ayant réalisé le plus fort CA appartiennent principalement à la catégorie 2.
Les prix sont disparates, mais le nombre de ventes est plutôt élevé.

Nous constatons que les produits les plus chers ne sont pas ceux qui réalisent le plus de CA.
De même, les produits réalisant le CA le plus élevé ne sont pas les plus chers.

les flops

Nous constatons que les articles les moins vendus appartiennent à la catégorie 0.
Leur prix se situe entre 1.99€ et 24.99€ (avec une exception pour l'article 2_81, qui appartient à la catégorie 2).

Nous constatons que les produits les moins chers appartiennent à la catégorie 0.
Nous constatons également que leur nombre de ventes est faible (entre 4 et 19)
et qu'il en est de même pour le CA réalisé : inférieur à 18€.

Nous constatons que les articles ayant réalisé le plus petit CA appartiennent à la catégorie 0.
Leur prix et leur nombre de vente est très bas.

CA par catégorie

Pour rappel, les prix les plus élevés appartiennent à la catégorie 2 et les plus bas, à la catégorie 0.
Cette répartition semble indiquer que plus de la moitié du CA est réalisé par des articles dont le prix est plus bas.

CA par prix

Ce graphique corrobore notre précédente conclusion : le CA est concentré sur des articles entre 0 et 50€.

distinction entre les deux gammes

CA par catégorie
Représentation graphique

Les articles de la gamme supérieure ne représentent qu'une faible proportion du CA : 7.19%

Zoom sur les clients

Profils

Répartition des clients par genre

Une répartition plutôt égalitaire entre H et F

Répartition des clients par âge

Nous observons une concentration du nombre de clients entre 20 et 60 ans

Panier moyen

Répartition du CA

Répartition du CA entre les clients

La courbe de Lorenz va nous permettre d'évaluer l'égalité de la répartition du CA entre les clients :

En abcisses, les effectifs cumulés
En ordonnées, le CA cumulé.

La courbe s'éloignant de la diagonale d'équirépartition (en orange), nous en déduisons que la répartition n'est pas égale.

L'indice de Gini mesure ici l'inégalité des chiffres d'affaires de tous les clients.

NB : Indice de Gini : chiffre de 0 à 1 mesurant l'aire entre la bissectrice et la courbe de Lorenz O indique une égalité parfaite (répartition parfaitement égale)
1 indique une inégalité parfaite (un seul client réalise le CA total)

Notre indice de 0.39 confirme l'inégalité de répartition du CA entre les clients. Cette inégalité reste modérée.

Pour aller plus loin dans l'analyse de ce dernier point, nous allons présenter la répartition des clients par CA :

Nous constatons que 4 clients réalisent un CA très supérieur aux autres clients entre 110 000 et 350 000 € chacun. Pour rappel, le CA moyen par client est de : 1 378€. Il pourrait s'agir de clients professionnels.

Les clients de type B2C, professionnels, représentent 7.43% du CA.

Répartition du CA par genre

Nous constatons à nouveau une répartition homogène entre les hommes et les femmes.

Répartition du CA par âge

Nous constatons que le CA semble être fonction décroissant de l'âge.

Recherche de corrélations

Au cours de l'analyse du CA réalisée précédemment, nous avons fait les observations suivantes :

Nous allons vérifier nos hypothèses en testant les corrélations identifiées.

Ajout des variables nécessaires à l'analyse

Matrice de corrélation

1/ matrice des corrélations ou heatmap

2/ corrélations à faire :

genre / catégorie

age / CA

taille panier / panier moyen

age / fq achat

fq achat / taille panier

age / panier moyen

fq achat / panier moyen

taille panier / cat

cat / age

cat / fq achat

cat / panier moyen

age / taille panier

CA et genre

CA et prix

Nb Ventes et prix

Nb Ventes et catégorie

NbV et CA